Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations
Questo studio dimostra che i modelli di linguaggio di grandi dimensioni (LLM), in particolare quelli con fine-tuning o prompt arricchiti da esempi, possono valutare con elevata accuratezza e riproducibilità i saggi di riflessione degli studenti di medicina a costi contenuti, offrendo un'alternativa efficiente alla valutazione umana.